بازیابی متون چاپی فارسی بر اساس پرس و جوی کلمات
thesis
- وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی
- author یعقوب پوراسد
- adviser هوشنگ حسیبی
- Number of pages: First 15 pages
- publication year 1390
abstract
در این پایان نامه روشی جدید برای بازیابی و جستجوی کلمات فارسی از میان متون تصویری فارسی ارائه شده است. همچنین روشی مبتنی بر اندازه و شکل نقاط موجود در مستند پس از آستانه گذاری، جهت تشخیص قلم و اندازه قلم مستندات تصویری فارسی ارائه شده است. روش ارائه شده برای تشخیص قلم از اولین روش هایی می باشد که می تواند با دقت بسیار بالایی اندازه قلم مستند فارسی را هم تشخیص دهد. برای ارزیابی روشهای ارائه شده برای تشخیص قلم و نیز سیستم بازیابی کلمات، چندین پایگاه تصویری با استفاده از کامپیوتر ایجاد شدند. پایگاه تصویری اصلی بکار رفته برای ارزیابی، شامل 448 تصویر تمیز و بدون نویز بود که سیستم ارائه شده با دقت بیش از %98 قلم و اندازه قلم آنها را تشخیص داد. همچنین سیستم کلی بازیابی کلمات، با دقت %86 در نرخ بازیابی %82 قادر به بازیابی کلمات از مستندات تصویری بود. این نرخ دقت و بازیابی با ارزیابی سیستم بر روی 200 کلمه فارسی بدست آمده است. همچنین یک پایگاه مستندات تصویری کوچک از مستندات تصویری اسکن شده (شامل 13 مستند تصویری نوشته شده در نرم افزار ms word که به صورت کاملا تمیز و بدون کجی اسکن شده اند) هم برای بررسی امکان پیاده سازی سیستم بر روی تصاویر اسکن شده واقعی ایجاد شد که مشاهده شد که هر دو روش ارائه شده قابل پیاده سازی بر روی تصاویر اسکن شده واقعی هم هستند. علاوه بر پایگاه تصاویر گفته شده، عملکرد سیستم بر روی یک پایگاه تصویری شامل تعدادی تصویر اسکن شده در شرایط غیر ایده آل دارای نویز و کجی هم مورد آزمایش قرار گرفت که نتایج حاصل نشان دهنده ضعف سیستم تشخیص قلم در تشخیص قلم مستندات نویزی و کج می باشد.
similar resources
بازیابی بر اساس محتوای اسناد چاپی فارسی
با افزایش کتابخانه های دیجیتال و برای برای دستیابی به هدف ادارات بدون کاغذ تعداد زیادی از کپی ها به دیجیتال تبدیل شده و در سیستم مدیریت اسناد ذخیره شده است. همچنین در حال حاضر میلیون ها سند دیجیتال دائماً بر روی اینترنت از یک نقطه به نقطه ی دیگر منتقل می شوند. اگر چه تکنولوژی پردازش تصویر اسناد می تواند برای تبدیل اتوماتیک تصاویر دیجیتال این اسناد به فرمت متن قابل خواندن به وسیله کامپیوتر با اس...
15 صفحه اولطراحی و پیادهسازی یک سیستم بازیابی اسناد چاپی فارسی
هدف: معرفی، دستهبندی، و نقد پژوهشها دربارۀ سیستمهای بازشناسی و بازیابی اسناد چاپی فارسی و پیشنهاد یک سیستم بازیابی اسناد چاپی با رویکردی نو. روششناسی: شیوهای جدید با رویکرد جداسازی، طراحی و سپس پیادهسازی شده است. برای آموزش و آزمایش سیستم، پایگاه دادهای شامل تصویر 50 صفحه متن فارسی در 5 قلم مختلف فراهم آمد. از نیمی از این دادهها برای آموزش و نیمی...
full textارائه روشی برای استخراج کلمات کلیدی و وزندهی کلمات برای بهبود طبقهبندی متون فارسی
Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. A...
full textبازشناسی متون چاپی فارسی
برای بازشناسی کلمات سه رویکرد مبتنی بر جداسازی، مبتنی بر بازشناسی کلمه یک الگوی واحد و رویکرد ترکیبی مطرح است . در این رساله یک سیستم برای بازشناسی متون چاپی فارسی با استفاده از رویکرد ترکیبی ارائه شده است . یک الگوریتم جدید برای جداسازی حروف در کلمات چاپی بدون توجه به نوع قلم ارائه شده است . مراحل مختلف الگوریتم شامل تعیین نوار زمینه، تصحیح آن و جداسازی حروف است . در تعیین نوار زمینه روش جدیدی...
15 صفحه اولارائه روشی جدید برای شاخصگذاری خودکار و استخراج کلمات کلیدی برای بازیابی اطلاعات و خوشهبندی متون
Persian words in writing with a diverse and cover all modes of grammatical words with the recruitment of a series of specific rules because it is impossible to extract keywords automatically from Persian texts difficult and complex. This thesis has attempted to use linguistic information and thesaurus, keywords Mnatry be provided. Using the symbol system is structured network can be keywords, i...
full textارائه روش ترکیبی و مفهومی جدید برای بسط پرس و جوی متون در سیستم های بازیابی اطلاعات
در بازیابی اطلاعات متون افزایش دقت بازیابی و کاهش زمان پاسخ امری بسیار مهم می باشد. از جمله مواردی که می توان برای بهبود دقت استفاده کرد، بهبود الگوریتم های بسط پرس و جو می باشد. در بسط پرس و جو با بهبود پرس و جوی کاربر سعی می شود پرس و جوی کاربر را که بصورت غیر ساخت یافته عنوان شده است به پرس و جوی دقیق تر تبدیل کرده و به این ترتیب دقت بازیابی را بالا ببریم. لذا بسط پرس و جو از جمله موارد مهم ...
My Resources
document type: thesis
وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی خواجه نصیرالدین طوسی
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023